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АЛГОРИТМ ЦИФРОВОЙ ОБРАБОТКИ 
АКУСТИЧЕСКИХ СИГНАЛОВ АУДИОФАЙЛОВ 
И ИХ РАСПОЗНАВАНИЕ НА ОСНОВЕ 
ОБЪЕКТИВНЫХ КРИТЕРИЕВ 


Разрабатываются алгоритмы цифровой обработки акустических сигналов, характер- 
ных для аудиофрагментов, записанных в виде игау-файлов. Вводится понятие авто- 
корреляционной функции для таких сигналов, а также указываются некоторые 
объективные параметры, характеризующие сигналы такого типа. Исследуются не- 
которые практические аспекты в приложении к возможной классификации различ- 
ных аудиофрагментов. 
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Введение. Стандартные файлы, содержащие аудиофрагменты, обладают 
рядом специфических особенностей. С одной стороны, они содержат ин- 
формацию об акустических сигналах, записанных через микрофон, и, сле- 
довательно, задача обработки таких сигналов может быть решена класси- 
ческими методами цифровой обработки [1]. С другой стороны, специфика 
данных акустических сигналов, связанных со звучанием фрагментов, рас- 
считанных на восприятие слушателем, отличает их, например, от сигналов 
акустической эмиссии или каких-либо подобных акустических сигналов, 
имеющих совершенно иную физическую природу [2]. 

В связи с этим обработка исследуемых аудиосигналов должна осно- 
вываться на особых принципах, пригодных для сигналов, предназначенных 
для прослушивания. В данной работе предлагается использовать оценку 
поведения автокорреляционной функции (АКФ). Оказывается, что некото- 
рые стохастические параметры поведения этой функции напрямую связаны 
с типом аудиофрагментов, записанных в виде акустических сигналов в 
рассматриваемых \мау-файлах. 

Фильтрация по октавным полосам. Пусть в стандартном мау-файле за- 
писан некий аудиофрагмент. Информация о нем содержится в файле в 
виде некоторого акустического сигнала р(!), характеризующего амплитуд- 
но-временную зависимость акустического давления от времени. Современ- 
ный РСМ стандарт подразумевает в общем случае 16-битовую стереозапись 
с частотой дискретизации 44100 Гц. Это означает, что на самом деле запи- 
санный сигнал имеет два канала, в каждом из них - с записью в дискрет- 
ном виде: 

Рр,= Ра,), 1, = ЛВ = 1/44100 сек., }= 0,..,М-1, МА, = Т. (1) 


В случае стереосигнала функция вида (1) должна рассматриваться 
для левого и правого акустического каналов отдельно. РСМ стандарт до- 
пускает запись также и в монорежиме. В этом случае имеем одну функцию 
вида (1). 16-битовая запись предполагает, что один бит для значений 


функции Р, отводится под знак, а оставшиеся 15 бит выделяются под зна- 
чения модуля самой величины в дискретизации данных от 1 до 2" = 32768. 
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Таким образом, относительная погрешность в дискретном задании функции 
равна 1/32768 = 0.003% , что следует признать довольно точным приближе- 
нием для непрерывной функции даже со значительными градиентами. 

В классической акустике [3] общепринятым является обработка 
сигналов в каждой из шести основных октавных полос, в которых частоты 
колебания выражены в герцах: 


10 =125, }® = 250, /® = 500, }® = 1000, 7? = 2000, 7® = 4000. (2) 
При этом нижняя и верхняя границы каждой октавной полосы (соответ- 
ственно частоты Л“, /“’) выражены через несущую частоту соответствую- 
щей октавы 
ПО, оу, ао) (3) 
покрывая непрерывным образом частотную область от 125/ 2 = 88 Ги до 
4000-/2 = 5657 Гц. 


Первая часть вычислений, применяемая к записанному сигналу для 
оценки его октавных компонент на частотных интервалах 


(7, Г), (п= 1,....6), является достаточно стандартной и основывается на 
теории цифровых фильтров [4]. Данный метод в применении к произволь- 
ному сигналу Р() при переходе в частотную область состоит в отсечении 
вкладов от всех частот вне интервала (Л,/), на котором происходит 
фильтрация. Введем пробную функцию &(), преобразование Фурье кото- 
рой равно нулю: С(Х)= 0 для всех частот вне интервала (Л,№) и равно 
единице: С(Л)=1 для Л (Л,Л№). Поскольку каждая частотная компонента 
Г дает вклад в осцилляции на рассматриваемой частоте как со значением 
Л, таки -Л,то @ = 21 Л) 


= бе" = бет = 
ты 2 Я<ИКл 
ие (4) 
р ‚№ ео = 1 $1 56) - зп (@ 6) _ $ (27 РЮ)- $ (27 11) 
д 1 де | 


ь < Л 
Тогда, согласно теореме о свертке, сигнал, отфильтрованный на частотном 
отрезке (Л,/›), может быть представлен в континуальном и дискретном 
виде: 
М-1 
р(0= р@)3(-)%, РЕВ 2@)5(@-1). (5) 
Е =0 
Такой прямолинейный подход обладает одним дефектом, извест- 
ным в литературе как «эффект Гиббса» [5]. Он обычно наблюдается при 
применении дискретного аналога преобразования Фурье (ДПФ) вместо его 
исходной континуальной формы и состоит в том, что для непериодических 
сигналов ДПФ, как правило, генерирует небольшой сильно осциллирующий 
«хвост» на концах рассматриваемого временного интервала. Для устране- 
ния этих фиктивных осцилляций можно применять те или иные «времен- 
ные окна», или взвешивание. В нашем алгоритме мы используем окна Хэм- 
минга [5]. 
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Заметим, что такой расчет, осуществленный прямо во временной 
области, требует квадратичного числа арифметических операций по числу 
выбранных временных узлов, поскольку в формуле (5) для каждого момен- 
та #={, необходимо осуществить суммирование по ]. Для существенного 
сокращения времени вычислений необходимо перейти в спектральную об- 
ласть, воспользовавшись теоремой свертки: 

Р’@)= Р@)С(). (6) 

Такой подход, с использованием быстрого преобразования Фурье 
(БПФ) в дискретном виде является линейно-логарифмическим, т.е. линей- 
ным по числу узлов. Далее, Фурье-обращение формулы (6) — опять-таки 
линейно-логарифмическим. Однако на пути применения БПФ существует 
один существенный момент, преодоление которого требует определенного 
навыка. Дело в том, что по своей сути выражение (5) является веществен- 
ным, однако, переход в частотную область (6), без предварительной обра- 
ботки, приводит к оперированию с комплекснозначными выражениями. 
Тогда и полученный результат будет комплекснозначным. Для преодоле- 
ния указанной трудности запишем обращение Фурье выражения (6): 

* 1 а ыы -1 
р > [В,.@)+ ф„@ 6 де "6 + 
0 


(7) 
+ >. [2..(@ )- 2„(@ )| С(@ )е" "4 = -— Ве Р@)С( )е" ‘ао , 
0 0 
где мы учли, что функция С(@) по своему определению вещественна; для 
вещественной функции р(0) реальная часть ее Фурье образа — функ- 
ция Р,„(@) четная по @ , а мнимая часть Р„(@) нечетная по @®@. 
Кроме того, функция С(@) четная. Таким образом, искомый ре- 


зультат получается взятием вещественной части от обратного преоб- 
разования Фурье в положительной частотной области. 

Переход в частотную область часто также сопровождается учетом 
реальной чувствительности слуховых каналов, которая является не посто- 
янной по частоте. Максимум чувствительности находится примерно в обла- 
сти 2000 - 2500 Гц и по традиции описывается А-взвешенной частотной за- 
висимостью [3]. Проведенные авторами исследования показали, что с до- 
статочно высокой точностью данная функция может быть приближена вы- 
ражением для энергетической характеристики, связанной с квадратом аку- 
стического давления: 


12(//2200) ° . 
(20/2200) (8) 
Характерные точки, через которые проходит график данной функции: 
А(20) = - 48 АВ, А(200) = - 114В, А(2200) = 2 АВ, А(10000) = - ЗАВ. 

Таким образом, вместо функции фильтрации С(@) в частотной 
области на практике следует использовать произведение функций 
0) и А@). 

Автокорреляционная функция сигнала. После того как ИСХОДНЫЙ 
аудиосигнал разложен на 6 основных октавных полос, а также учтена чув- 
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ствительность слуховых каналов (8), в каждой из этих полос происходит 
независимая цифровая обработка. Исследования Андо [6], выполненные им 
для всего сигнала в целом, без разложения на частотные интервалы, пока- 
зали, что вид аудиофрагмента напрямую связан с АКФ записанного сигнала 
Р(О. Данная функция была предложена для описания поведения стацио- 
нарных процессов [1] и имеет вид 

т 


._1 
рь)= тт. рФричт м. (9) 


Оказывается, что для эргодических стационарных процессов АКФ 
убывает с ростом 1: №9 ,„)=0, Андо [6] показал, что характерная ско- 


рость спадания модуля этой функции с ростом аргумента { однозначно ха- 
рактеризует тип записанного аудиофрагмента. В частности, решающим яв- 
ляется значение основного параметра 7., определяющего время спадания 


функции #,@) на 10 дБ. Исследования авторов показали, что эту идею 
Андо можно усилить, перенеся вычисление параметра *, на различные ча- 
стотные области, т.е. применяя в (9) вместо функции Р(О функцию р’. 


Прикладные аспекты будут описаны в следующем пункте. Здесь же опишем 
алгоритм эффективного вычисления АКФ. Как и в проведении фильтрации 
по формуле (5), нахождение АКФ-функции, согласно ее определению (9) 
требует квадратичного числа арифметических операций. Для возможности 
использования БПФ следует воспользоваться теоремой Винера-Хинчина 
[1], выражающей АКФ в виде обратного преобразования Фурье от спек- 
тральной плотности мощности $ (6): 

Т 2 

6,„()= ЕЯ $ (0 )е "`` 40, $(0)= а. р@е’'а! . (10) 

2 т- Г 


- 0 
Ясно, что обе интегральные операции в (10) в их дискретной реализации 
допускают применение БПФ, т.е. такой подход требует линейно-логариф- 
мического числа арифметических операций. 
Дискретная реализация описанного алгоритма основана на интер- 
поляционной формуле для интеграла Фурье в (10): 
Т м№-1 м№-1 М№-1 


ЮГ ь МГ, . 2л ЕЛЬЙ, = 21 УЙу Т/М .., 
ре’ =й ре '=И её =й ре = 


=0 1=0 150 


0 = . Е : (11) 
= ре’"У, в, = ИТ=1АМВ), в, = 21, 9 = О = № 


7 р 
0 
В такой интерпретации соотношения (10) допускают прямое применение 
БПФ. При этом сама АКФ определяется на основе обратного ДПФ: 
0 
| 0 © 
6,(1,)= Ве $(0)е”'40 = 
Л 
М№-1 | М№-1 (12) 
тр ` ва Е р 
ве 6@,)е“” =21, Ве Ф@ре“и”“ , 


А=0 К=0 
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поскольку $ (0) - четная вещественная функция. При таком подходе выра- 
жение (12) также допускает прямое применение БПФ. 

Роль параметра т. в ряду объективных акустических параметров. 
Как было сказано выше, параметр т, характеризует эффективный срок 
нормализованной АКФ, определяемый по промежутку времени, на котором 
АКФ спадает на 10 ДБ. Значение этого параметра для оценки типа аудиоф- 
рагмента и качества звучания исследовалось на сигналах записанных фраг- 
ментов четырнадцати произведений, исполненных разными составами. 
Первоначально для определения оптимального значения 1, в трёх частот- 
ных полосах были исследованы диапазоны инструментов, относящихся к 
трём основным регистрам в музыке и звукотехнике. Так, у контрабаса пре- 
дел в верхнем диапазоне - это «ля» первой октавы (440 Гц). Однако необ- 
ходимо было определить его наиболее часто используемый диапазон игры. 
Для этого был разобран ряд партитур из списка хрестоматийных произве- 
дений. Выявлено, что частота раздела между нижней и средней полосой 
находится в пределах 260-280 Гц, а между средней и верхней - 1200-1300 Гц. 
Поэтому для дальнейшего исследования авторам пришлось отказаться от 
двух общепринятых подходов. С одной стороны, Андо [6] оперировал этим 
параметром для всего сигнала в целом, без разделения на различные ча- 
стотные диапазоны. С другой стороны, традиционное разделение на октав- 
ные полосы, в силу сказанного выше, также неприемлемо для наших экспе- 
риментов. В связи с этим для оценки параметра авторами предлагается 
разделение на три частотные полосы т, : низко-, средне-, и высокочастот- 
ную, с границами разделения 261 и 1244Гц. В нашем алгоритме с предва- 
рительным использованием соответствующих фильтров была проведена 
работа по нахождению параметра 7. как в трёх частотных полосах (с со- 
ответствующим присвоением символов — 1, т, |0м/), так и без фильтра- 
ции, используя сэмплированные фрагменты. В таблице представлены дан- 
ные минимальных значений параметра, поскольку именно они представ- 
ляют интерес, обусловленный большей вероятностью возникновения эф- 
фекта — «эхо» в концертном зале в этом диапазоне значений. Выбирались 
характерные фрагменты музыкальных сигналов (смена темпа, характера, 
фактуры, вступление других инструментов). 

Сигналы музыкальных Исходный им- |Высокие частоты Средние ча- Низкие часто- 


произведений и их про- пульс, 


к „М стоты 7, ты #7 е МС 
тяжённость в секундах 


Те 


И ИН пн еиеи 
ни 109/113 
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Окончание табл. 
а р Е ана се Ве] 
Примечание: 2,3,4,6,7,9,11,13 - симфонический оркестр - большой состав; 
12 - ансамбль русских народных инструментов (2балалайки, 2 домры, баян) 
1,8,10,14 - камерный симфонический оркестр, 11- + ксилофон 
5 — хор 


1 





Результаты эксперимента показали, что значения 7, в 74% случаев 
больше, чем у т., Вч (72 из 92). Параметр 1, в 24% случаев равен *., Сч, 
в 6% больше т,, Сч, ив 69% меньше т., Сч, ит. лишь в 4% случаев ра- 
вен т., Нч, в 5% больше и 91% меньше г., Нч. Таким образом видно, что 


значения параметра '. (мс) сильно отличаются от его частотно-ограничен- 
ных аналогов, в связи с чем вызывает сомнение корректность использова- 
ния этого параметра. 

Более подробный анализ по трем выбранным частотным диапазо- 
нам приводит нас к выводу, что общее свойство музыкальных сигналов за- 
ключается в их скоротечности в высокочастотном диапазоне. Ясно также, 
что низкочастотный диапазон отличается большей продолжительностью. 

При формировании обрабатываемых \мау-файлов использовалась 

следующая методика. Записи музыкальных коллективов на цифровой носи- 
тель производились с помощью микрофонной стереопары (Вги8Юаег) в от- 
носительно заглушенном помещении. Место установки стереопары - 1,5м 
от края посадки оркестра, ансамбля или хора, высота стойки — два метра. 
Записывали все произведения целиком, затем сэмплировали временные 
фрагменты длительностью 20сек Т 2мин из разных частей произведе- 
ний в соответствии со сменой темпа и характера исполнения. Сэмплирова- 
ние происходило с помощью звуковой станции РКО ТОО1$ \ 6.7 и програм- 
мы бресга[аЬ у 40.32.08. Два сигнала не складывались в один, поскольку и 
левый, и правый канал содержал индивидуальную информацию согласно 
посадке исполнителей. 
Выводы. С помощью алгоритмов цифровой обработки акустических сигна- 
лов аудиофайлов произведено их распознавание на основе объективного 
параметра '., характеризующего временную природу случайности про- 
цесса возникновения сигнала в музыкальных произведениях. Проанализи- 
рованы рабочие диапазоны игры различных инструментальных групп по 
всей частотной шкале и выявлены три основных полосы. Параметр !, ис- 
следуется как в данных полосах при помощи фильтрации, так и без частот- 
ного ограничения. Проведён сравнительный анализ полученных значений. 
Найдена закономерность, указывающая на скоротечность сигналов в высо- 
кочастотном диапазоне. 
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